202305.00078v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


数字 营销 专题 | 


基于 CLV 偏好 挖掘 模型 的 数字 社区 用 户 偏好 挖掘 研究 


肖 耘 1, 许 欢 欢 1!， 肖 雅 元 ?1， 赵 又 霖 2， 庞 航 远 。 
(1. 广西 中 烟 工业 有 限 责任 公司 ， 南 宁 530001; 
2. 南京 大 学 信息 管理 学 院 ， 南 京 210023; 3. 河 海 大 学 商学 院 ， 南 京 211100) 


摘 2: [目的 /意义 ] 数 字 社区 已 经 成 为 企业 高 效 管理 用 户 的 一 种 方式 ， 用 户 行为 信息 以 及 用 户 的 客户 生命 周期 价值 对 数字 
社区 的 用 户 偏好 挖掘 具有 重要 意义 。 且 现 有 的 数字 社区 研究 缺乏 对 用 户 价值 和 未 来 偏好 挖 据 的 研究 。[ 方 法 / 过 程 ] 针对 数字 
社区 的 用 户 群 体 ， 本 文 提出 基于 客户 生命 周期 价值 CLV (Customer Lifetime Value, CLV) 的 偏好 挖掘 模型 CLV-PM 
(CLV-Preference Mining，CLV-PM)。 首 先 ， 为 反映 用 户 真实 偏好 ， 基 于 用 户 行为 信息 ， 借 助 RPM 模型 和 K-Means++ 算法 挖掘 
户 群 体 特征 ， 生 成 用 户 价值 类 别 标签 ; 其 次 ， 为 考虑 用 户 时 序 性 和 差异 性 以 及 增强 模型 对 偏好 的 认 知 ， 利 用 用 户 CLYV 构建 
户 -评分 窍 阵 ， 并 借助 协同 过 滤 算 法 挖掘 用 户 预测 偏好 ; 最 后 ， 绘 制 数字 社区 目标 用 户 的 用 户 偏好 画像 。 [结果 / 结论 ]“ 微 
言 社 群 ”管理 平台 的 用 户 数 据 集中 ， 可 划分 为 重要 价值 用 户 、 低 价值 用 户 、 回 流 用 户 和 重要 挽留 用 户 4 种 用 户 价值 类 别 ; B 
标 用 户 16254 为 重要 价值 用 户 ， 采 取 “留存 和 维持 ”为 主 的 运营 策略 ; 历史 偏好 为 欢乐 跳 一 跳 、 秒 杀 等 活动 ， 预 测 偏好 为 飞 
行 棋 大 作战 、 猜 码 图 等 活动 ， 目 标 用 户 偏好 画像 为 数字 社区 运营 和 维护 用 户 提供 依据 。 
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1 引 = 应 运 而 生 并 迅速 发 展 。 数 字 社区 作为 一 种 全 新 的 生活 
A 


方式 ， 以 数字 技术 为 基础 ， 通 过 网 络 、 手 机 等 终端 进 
随 着 信息 技术 和 互联 网 的 迅猛 发 展 ， 数 字 化 社区 ” 行 信 息 传播 和 交流 。 然 而 ， 由 于 数字 社区 的 用 户 信 息 
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飞速 增长 ， 信 息 过 载 问题 相继 出 现 ， 用 户 难以 从 海量 
数据 资源 中 找到 自身 需要 的 物品 。 

数字 社区 用 户 生命 周期 描述 了 用 户 参 与 社区 活动 
的 不 同 阶段 ， 不 同 的 用 户 拥有 不 同 的 生命 周期 ， 并 且 
用 户 对 于 社区 的 价值 贡献 和 需求 存在 差异 。 因 此 ， 衡 
量 数字 社区 用 户 的 客户 生命 周期 价值 不 仅 考虑 了 用 户 
的 差异 性 ， 而 且 考 虑 了 用 户 的 时 序 性 。 

在 众多 的 用 户 偏 好 挖掘 研究 算法 中 ， 协 同 过 滤 算 
法 的 应 用 最 为 普遍 。 协 同 过 滤 依 赖 于 偏好 或 兴趣 与 目 
标 用 户 相 似 的 用 户 ， 并 推荐 用 户 可 能 感 兴趣 的 项 目 。 
由 于 传统 的 协同 过 滤 算 法 的 实现 非常 依赖 物品 和 用 户 
的 评分 信息 ， 但 用 户 的 评分 信息 往往 伴随 数据 稀 玻 性 
和 数据 真实 性 问题 ， 而 用 户 行为 信息 能 够 真实 反映 用 
户 的 偏好 ， 有 效 减少 数据 的 稀 琉 性 和 失真 性 问题 。 

因此 ， 为 提高 预测 和 挖掘 的 精度 ， 考 虑 用 户 时 序 
性 和 用 户 价 值 。 本 文 将 用 户 行为 数据 作为 数据 源 ， 从 
客户 生命 周期 价值 的 视角 出 发 ， 构 建 CLV-PM (CLV- 
Preference Mining, CLV-PM) 模型 。 通 过 聚 类 划分 用 
户 价值 类 别 ， 生 成 用 户 价 值 类 别 标签 ， 挖 掘 用 户 历史 
偏好 ， 再 结合 协同 过 渡 算 法 预测 用 户 未 来 偏好 ， 最 后 ， 
生成 数字 社区 用 户 偏好 画像 ， 为 数字 社区 用 户 的 偏好 
挖 据 提供 依据 。 同 时 ， 为 数字 社区 用 户 偏好 挖掘 提供 
新 的 研究 视角 。 


2 相关 研究 基础 


2.1 CLV 理论 及 应 用 


客户 生命 周期 价值 CLV (Customer Lifetime Value, 
CLV) 0 是 一 项 用 于 衡量 客户 贡献 利润 的 典型 指标 ， 对 
企业 的 精准 营销 具有 重要 的 价值 和 意义 ， 其 测量 和 计 
算 被 广泛 应 用 于 学 术 研究 和 营销 领域 。 现 有 研究 成 果 
表明 ， 以 CLV 为 基础 的 营销 资源 分 配 为 企业 带 来 了 
更 多 的 利润 。VENKATESAN 和 KUMARD 发 现 前 5% 
的 顾客 所 创造 的 价值 要 比 其 他 模型 高 出 10% ~15% ; 
KUMAR 等 ga 指出 CLV 模型 可 以 帮助 企业 衡量 客户 关 
系 ， 制 定 更 为 合理 的 营销 政策 ， 实 现 个 性 化 管理 ， 使 
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客户 价值 最 大 化 ; 李 玉 婷 等 指出 CLV 高 的 企业 ， 其 
客户 续 保 率 越 高 、 赔 付 率 越 低 。 有 关 CLV 的 主要 研究 
内 容 可 以 分 为 : 用 户 价值 细 分 中 、 客 户 生 命 周期 建 模 轧 、 
CLV 对 相关 决策 管理 的 支持 的 等。 


2.2 数字 社区 用 户 研究 现状 


数字 社区 是 指 通 过 数字 信息 将 服务 提供 者 和 管理 
部 门 与 用 户 连接 起 来 的 虚拟 在 线 社 区 ， 而 数字 社区 的 
用 户 是 指使 用 由 服务 提供 者 提供 的 服务 的 人 。 近 年 来 ， 
数字 在 线 社区 方面 的 研究 引起 了 学 者 们 的 广泛 关注 ， 
并 得 到 了 许多 出 色 研 究 成 果 。 数 字 在 线 社区 的 研究 主 
要 涉及 用 户 信息 披露 吗 、 用 户 行为 影响 因素 话 则 、 用 户 
偏好 挖掘 吕 习 等 。 由 于 本 文 涉及 数字 社区 用 户 仿 好 控 据 
以 及 用 户 行为 方面 的 分 析 ， 下 面 将 重点 阐述 这 两 个 方 
面 的 数字 社区 研究 现状 。 

在 用 户 行为 分 析 方 面 ， 肖 雪 等 外 以 “ 豆 闻 读书 ” 
作为 数据 来 源 ， 通 过 社会 网 络 分 析 法 、 内 容 分 析 法 和 
统计 分 析 法 分 析 虚 拟 阅 读 社区 的 用 户 互动 特征 和 影响 
因素 ; EA Be PZ EAA ne Me AE hy SCH ER , 
借助 双向 固定 效应 模型 探究 视频 评论 特征 对 观众 评论 
行为 的 影响 ; 付 少 雄 等 四 以 好 大 夫 在 线 作 为 数据 来 源 ， 
基于 社会 基本 理论 探究 在 线 医 疗 社区 医生 知识 贡献 行 
为 的 关键 动因 ; 潘 涛 涛 和 吕 英 杰 中 以 某 在 线 健康 社区 
的 发 帖 行为 数据 为 数据 源 ， 借 助 SOA 模型 探究 影响 用 
户 参与 社区 意愿 的 因素 ; 赵 欣 等 只 以 问卷 数据 作为 数据 
来 源 ， 运 用 AMOS 软件 探究 用 户 行为 与 用 户 信任 的 互 
惠 因 果 关 系 ; 陈 星 等 中 以 问卷 数据 作为 数据 来 源 ， 运 用 
AMOS 探究 影响 用 户 持续 知识 分 享 行为 意愿 的 因素 。 

在 用 户 偏 好 控 气 方面， 学 者 主要 以 用 户 评论 数据 、 
用 户 基本 属性 以 及 用 户 行为 数据 等 为 研究 数据 来 源 ; 
借助 扎根 理论 、 标 签 分 类 、 聚 类 分 析 以 及 情感 分 析 等 
方法 展开 用 户 需 求 主题 识别 、 关 键 用 户 识别 等 研究 。 
如 成 全 和 郑 抒 琳 外 以 母 婴 网 站 的 提问 数据 作为 数据 源 ， 
分 析 其 用 户 信 息 需 求 主题 标签 体系 ， 并 构建 层级 多 标 
签 分 类 模型 ; 余 佳 琪 等 8 基于 患者 的 评论 数据 构建 了 一 
个 挖掘 不 同 阶段 患者 评论 主题 与 情感 状态 的 主题 情感 
混合 模型 ， 吴 江 等 中 以 网 易 云 社区 为 研究 对 象 ， 借 助 
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BERT 主题 聚 类 的 方法 ， 分 析 不 同音 乐 主 题 的 特征 ; 
张 军 等 中 从 用 户 交 互 行为 属性 、 信 息 质量 属性 和 情感 
倾向 属性 3 个 方面 展开 关键 用 户 识别 研究 ; EPA 
用 户 的 基本 属性 、 兴 趣 主题 、 情 感 倾 向 、 问 诊 需求 以 
及 社交 网 络 5 个 方面 进行 用 户 画 像 和 用 户 分 群 研究 ; 
钱 宇 星 等 四 以 “老年 人 之 家 ”论坛 中 的 文本 为 数据 源 ， 
萌 助 共 现 分 析 和 主题 分 析 挖 掘 老 年 在 线 健康 社区 的 健 
康信 息 需求 ( 表 1)。 


2.3 协同 过 滤 算 法 研究 现状 


协同 过 滤 算 法 是 目前 推荐 系统 中 应 用 范围 最 广 旦 
成 功率 最 高 的 推荐 算法 。 和 常常 被 应 用 于 预测 和 挖掘 用 
户 的 需求 和 偏好 。 传 统 的 协同 过 滤 算 法 通常 基于 用 户 
对 项 目的 评分 数据 预测 用 户 偏 好 外。 但 是 ， 评 分 信息 
的 失真 问题 导致 预测 结果 不 够 精确 ， 因 此 学 者 们 提出 
BE CAS AARRE BK PPS ae EENE A, 
时 空 信息 外、 用 户 的 浏览 、 复 制 以 及 收藏 信息 外 ”等 提 
高 结果 的 准确 性 。 

从 CLV 的 理论 及 应 用 来 看 ，CLYV 作为 用 户 价值 衡 
量 的 重要 指标 ， 其 对 资源 的 有 效 利用 和 用 户 价值 的 最 
大 化 具有 重要 的 地 位 ， 且 被 广泛 应 用 于 用 户 价值 衡量 
领域 ， 为 基于 用 户 价值 的 用 户 偏好 挖掘 提供 新 的 视角 ; 
从 数字 社区 用 户 的 研究 现状 来 看 ， 数 字 社 区 的 用 户 行 
为 研究 主要 集中 在 用 户 行为 的 影响 因素 方面 ， 数 字 社 
区 用 户 偏好 研究 多 以 文本 数据 作为 数据 来 源 ， 少 以 用 
户 的 行为 数据 作为 研究 对 象 ， 而 用 户 的 行为 数据 真实 
反映 用 户 的 偏好 ; 借助 主题 分 析 等 方式 挖 气 用 户 的 偏 
好 ， 少 有 对 未 来 偏好 的 预测 研究 ; 现 有 的 数字 社区 用 
户 研 究 少 有 考虑 用 户 生 命 周期 价值 ， 但 用 户 生 命 周期 
价值 反映 用 户 整个 生命 周期 内 对 数字 社区 的 贡献 ， 考 
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而 提高 数字 社区 的 运营 效率 和 效果 。 从 协同 过 滤 算 法 
的 研究 现状 来 看 ， 单 一 评分 数据 存在 失真 问题 ， 现 有 
研究 采用 多 属性 特征 结合 的 方法 提高 预测 和 挖掘 的 精 
确 度 。 

综 上 所 述 ， 以 现 有 的 研究 为 基础 ， 本 文 提 出 了 一 
种 以 用 户 行为 数据 作为 研究 对 象 ， 考 虑 用 户 生命 周期 
价值 的 混合 用 户 偏好 挖掘 模型 一 一 CLV-PM 模型 。 该 
模型 从 CLV 的 视角 出 发 ,将 用 户 行 为 数据 作为 用 户 偏 
好 数据 ， 评 估 和 计量 用 户 的 CLV; 以 用 户 的 CLV 为 衡 
量 指标 ， 利 用 K-means++ 算法 进行 用 户 聚 类 ， 生 成 用 
户 价值 类 别 标签 ， 最 后 通过 协同 过 滤 算 法 挖掘 不 同 用 
户 价值 类 别 的 未 来 偏好 ， 并 在 此 基础 上 绘制 数字 社区 
中 目标 用 户 的 用 户 偏好 画像 ， 为 数字 社区 用 户 的 偏好 
挖掘 提高 依据 。 


3 CLV-PM 模型 的 构建 


为 克服 现 有 研究 的 局 限 性 以 及 数字 社区 “信息 过 
载 ” 的 问题 ， 并 基于 数字 社区 用 户 的 时 序 性 以 及 用 户 
价值 差异 性 的 特点 。 本 文 提出 一 种 基于 CLV 的 偏好 挖 
掘 模型 一 一 CLV-PM， 用 于 数字 社区 的 用 户 偏好 挖掘 研 
究 。CLV-PM 模型 的 作用 有 二 : 一 是 提高 偏好 挖掘 和 
预测 的 准确 度 ， 以 用 户 行为 数据 作为 研究 对 象 ， 真 实 
反映 用 户 偏 好 ; 二 是 从 用 户 的 CLV 的 视角 出 发 ， 进 行 
用 户 聚 类 ， 生 成 用 户 价值 类 别 标签 ， 实 现 数字 社区 资 
源 最 大 化 ， 用 户 价值 最 大 化 。CLV-PM 模型 的 算法 框 
架 如 图 1 所 示 。 


3.1 RFM 模型 


TERA, FP BES FE EZ ORE Pi it 


虑 用 户 生命 周期 价值 有 利于 挖 气 和 预测 用 户 偏好 ， 从 ”性 问 题 ，RFM 模型 通过 量化 用 户 行为 信息 ， 对 用 户 进 
表 1 数字 社区 用 户 偏 好 挖掘 研究 特征 表 
Table 1 Digital community user preference mining research 
数据 类 型 户 评 论 数据 、 用 户 基 本 属性 、 用 户 行为 数据 等 
研究 方法 扎根 理论 、 层 级 多 标签 分 类 、K-means 方法 、EM RK, T BERT 主题 聚 类 、AttriRank 算法 、 共 现 分 析 等 
研究 主题 户 需求 主题 识别 、 关 键 用 户 识别 等 
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项 目 1 


[i 
计算 用 户 v 对 项 目 p 的 评分 Cu, p) ! 加 用 户 偏好 画像 


》 : R: 用 户 v 最 近 参 与 项 目 p 的 时 间 “中 
“as er F: 用 户 v 参 与 项 目 p 的 频率 ni 
; ; VEU pi ams i 用 户 v 


M: 用 户 v 参 与 项 目 p 的 总 消费 中 


Rs 项 目 m ii 
ee = | OQ 用户 "所 属 的 用 户 价值 类 别 
@@ 用 户 价值 类 别 标签 SR 用 户 价值 类 别 i 


AOPA K-Means++ 算 法 i 
TSS — AR mmm ii 
: n 


: " 
BX 用 户 价值 类 别 n 


用 户 v(1 svan) 
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用 户 的 CLV 


填充 
矩阵 


用 户 一 评分 矩阵 


cian 1! 预测 偏好 


图 1 CLV-PM 模型 计算 框架 


Fig.l CLV-PM model calculation framework 


行 价值 划分 ， 以 此 衡量 用 户 对 社区 的 评分 。 本 文通 过 
基于 REM 模型 量化 数字 社区 的 用 户 行为 信息 ， 以 挖掘 
用 户 偏 好 和 衡量 用 户 价值 。RFM (Rational Function 
Model) 分 析 模 型 最 早 是 1994 年 HUGHES 提出 的 外， 
该 模型 从 企业 的 角度 综合 考虑 客户 一 般 购 买 行为 。 
BULT 和 WANSBEEK 对 RFM 的 定义 为 : R (Recency) 
是 指 用 户 消费 的 临近 性 ， 与 客户 重复 购买 的 可 能 性 成 
反比 ， 通 常 以 用 户 在 观测 期 内 的 最 近 消 费时 间作 为 衡 
量 指标 ; F (Frequency) 是 指 用 户 的 消费 频率 ， 与 客户 
忠诚 度 成 正比 ， 通 常 以 观测 期 内 用 户 的 消费 次 数 作为 
衡量 指标 ; M (Monetary) 是 指 用 户 的 消费 能 力 ， 与 公 
司 对 客户 的 关注 度 成 正比 ， 通 常 以 观测 期 内 用 户 的 消 
费 总 额 作为 衡量 标准 中。 基于 RFM 模型 的 定义 ， 本 文 
对 数字 社区 用 户 进行 价值 划分 ， 帮 助 社区 精准 服务 于 
用 户 。 另 外 鉴于 数字 社区 中 用 户 参 与 不 同 活动 所 获得 
的 奖励 额度 和 奖励 物品 不 同 ， 在 测算 RR、f、M 值 时 需 
通过 最 大 最 小 归 一 化 方法 将 数据 标准 化 ， 以 减少 测量 
误差 。 

用 户 参与 活动 m 的 近 度 R,(m=1,2, m), Ra WE 
义 为 最 近 一 次 参与 活动 m 的 时 间 ， 即 最 后 一 次 参与 项 
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目 活动 距离 设 定时 间 的 间隔 长 度 。R; 越 小 说 明 数 字 社 
区 用 户 越 活 跃 ， 对 数字 社区 的 价值 以 及 贡献 就 越 大 。 
假设 实验 数据 采集 的 时 间 点 为 7 了 ， 用 户 的 生命 周期 为 
Tmn(n=1,2, ... n; m=1,2,...,m), HP, Tin 表示 用 户 参 与 
活动 m 的 时 间 点 。 用 户 参 与 活动 的 近 度 计算 公式 如 公 
式 (1) 所 示 。 

R,, = min(7-T,,,) (1) 

用 户 参 与 活动 m 的 频 度 (m=1,2, m), Fn 的 含 
义 为 顾客 一 段 时 间 内 参与 活动 m 的 次 数 ， 参 与 频率 越 高 
代表 用 户 忠 诚 度 越 高 。 假 设 用 户 在 参与 活动 m 的 各 个 时 
间 点 上 的 参与 次 数 集合 为 (n=1,2, ... yn; m=1,2, ...,m), 
其 中 表示 用 户 在 时 间 点 n 上 参与 活动 m 的 频次 。 用 
户 参与 活动 的 频 度 计算 公式 如 公式 (2) 所 示 。 

FZ fin (2) 

用 户 参 与 活动 m 的 值 度 M,(m=1,2, ... m), Mn 的 含 
义 为 用 户 一 段 时 期 内 参与 活动 m 的 消费 总 额 。 值 度 越 
大 表示 用 户 对 该 平台 或 该 活动 项 目的 贡献 越 大 ， 重 要 
程度 越 大 。 本 文通 过 用 户 参 与 活动 时 消耗 的 游戏 货 
或 积分 等 作为 衡量 用 户 价值 贡献 和 重要 性 程度 。 假 设 
用 户 在 各 个 参与 活动 的 时 间 点 上 的 消费 额度 为 Mn= 
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1,2, n; m=1,2,...,m), HEP MM, 表示 用 户 在 参与 活动 m 
的 时 间 点 n 上 的 消费 额度 。 则 用 户 参 与 活动 的 值 度 计 
算 公 式 如 公式 (3) 所 示 。 
Mn = Èi- Mm (3) 
由 于 每 个 用 户 可 能 同时 参与 多 个 活动 项 目 ， 因 此 
AXW R, F 1 值 ， 取 每 个 用 户 参 与 的 所 有 活动 项 
目的 尺 、R、M 对 应 的 平均 值 。 


3.2 用 户 价值 类 别 标签 


基于 聚 类 算法 无 监督 且 事 先 不 知道 是 否 被 明确 分 
类 的 特点 ， 本 文 将 “类 内 高 聚合 、 类 间 低 耦合 ”作为 
指导 思想 。 本 文 将 每 个 用 户 的 R、F、 必 均值 ， 作 为 用 
户 相 似 度 测量 的 指标 。 此 外 ， 为 了 加 速 收 敛 ， 采用 
K-Means++ 算法 ， 将 未 聚 类 的 数据 看 作 在 多 维 空间 上 
的 点 ， 采 取 “ 欧 式 距 离 ” 作 为 测量 指标 ， 计 算 每 个 对 
象 与 中 心 对 象 的 距离 ， 并 根据 最 小 距离 重新 对 相应 对 
象 进行 划分 ， 然 后 重新 计算 每 个 聚 类 均值 直至 没有 对 
象 再 被 重新 分 配给 其 他 类 ， 且 聚 类 中 心 不 再 变化 。 并 
将 误差 平方 和 (SSE) 作为 度量 聚 类 效果 的 目标 函数 ， 


选取 SSE 最 小 的 分 类 结果 作为 最 终 的 聚 类 结果 。 计 算 
公式 如 (4)、 (5) 所 示 。 
欧 氏 距离 计算 公式 中 : 
d(i, j) =a) (xu — xj1)? + Xiz — Xj2) + + (Xip 一 Xp) 
(4) 


误差 平方 和 (SSE) HAR., 
SSE = weg Vey S VOK (5) 


3.3 用 户 - 评 分 矩阵 


RFM 是 评估 和 计量 用 户 CLV 的 典型 模型 ， 考 虑 
到 数字 社区 用 户 评分 存在 失真 以 及 数据 稀 玻 性 的 缺点 。 
本 文 借助 数字 社区 用 户 行为 数据 量化 分 析 用 户 CLV， 
并 以 此 作为 基于 用 户 的 协同 过 滤 算 法 的 用 户 -评分 和 矩 
阵 ， 用 户 CLV 越 大 ， 表 示 用 户 的 满意 度 越 高 ， 评 分 越 
高 。 精 可 用 来 衡量 事物 出 现 不 确定 性 的 概念 四， 信息 
MABUK, 1A BIER ASA PRA YE E, TR 
AB ICPARAS Et, ROR, AEST PRE AR 
与 该 项 指标 所 提供 的 信息 量 、 在 综合 评价 中 起 的 作用 
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<n 


以 及 该 项 指标 的 权重 成 反比 。 由 于 RFM 模型 中 的 RR、 
F, M 三 个 变量 对 用 户 的 CLV 的 贡献 不 同 ， 本 研究 借 
HAPUA at 3 个 变量 在 影响 用 户 对 活动 喜爱 程度 中 
的 比重 ， 将 其 作为 数字 社区 用 户 的 项 目 偏好 比 。 最 后 
根据 公式 (6) 得 到 加 权 REM 值 ， 并 以 此 构建 相应 的 
用 户 项 目 -评分 和 矩阵。 

CLV = weRn + wel + WM n (6) 

HP, Ra Fa 向, 分 别 表 示 对 应 活动 m WR, Fn 
FIM FEER, wr, wr wy RIR Ra, Fn PU Mp WIE, 


3.4 综合 相似 度 计算 


余弦 相似 度 是 协同 过 滤 推 荐 算法 中 衡量 用 户 相似 
度 的 一 种 常用 方法 。 在 协同 过 滤 算 法 中 ， 它 通过 计算 
用 户 或 项 目 之 间 的 余弦 相似 度 来 评估 用 户 或 项 目 之 间 
的 相似 度 。 因 此 ， 本 文 所 构建 的 CLV-PM 模型 借助 余 
弦 相 似 度 衡量 用 户 的 相似 度 。 

用 户 间 余弦 相似 度 的 计算 公式 如 公式 (7) 外 所 
示 。 其 中 ，sim(wv) 表 示 用 户 u SAP v 的 综合 相似 度 ， 


分 子 表示 u 的 向 量 和 用 户 w' 向 量 的 乘积 ,分 母 表示 两 
者 模 长 的 乘积 。 
aul Dietynty, (TwiXT i) 
su’) = 
lax ||u | [Eternon Tui [Zierynty, Tata Se 


3.5 数字 社区 用 户 偏好 画像 


根据 公式 (7) 得 到 目标 用 户 的 N 个 近邻 用 户 之 
后 ,依据 “目标 用 户 与 其 相似 用 户 的 喜好 是 相似 的 ” 
的 假设 ,预测 目标 用 户 的 偏好 。 常 用 的 方法 是 ， 利 用 
用 户 相 似 度 和 相似 用 户 评 分 的 加 权 平 均值 ， 来 获得 
标 用 户 的 预测 评分 ， 按 照 评 分 大 小 降序 排序 ， 生 成 n 
个 预测 偏好 。 计 算 公 式 如 公式 (8) 所 示 。 


R 2 Zvev(Wuv- Rvp) 
p Pvev Way 


(8) 


其 中 ， 权 重 ww 是 用 户 w 和 用 户 v WAE, Ry 
是 用 户 v 对 项 目 p 的 预测 评分 。 在 获得 用 户 v 对 不 同 
项 目的 预测 评分 后 ， 选 择 前 n 个 项 目 生成 预测 偏好 甜 
阵列 表 。 并 据 此 构建 用 户 偏好 画像 如 图 2 所 示 。 
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用 户 v 


LEX 用 户 v 所 属 的 用 户 价值 类 别 


历史 偏好 


预测 偏好 


图 2 用 户 偏好 画像 


Fig.2 User preference portrait 


4 基于 CLV-PM 模型 的 数字 社区 用 户 
偏好 挖掘 研究 


4.1 数据 源 与 数据 预 处 理 
广西 中 烟 工 业 有 限 责 任 公司 通过 “ 微 信 社 群 ” 管 


表 2 
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理 平台 对 加 入 平台 的 用 户 进 行 管理 和 维护 ， 该 平台 具 
备 个 人 信息 维护 、 消 息 推送 以 及 开展 营销 活动 的 功能 ， 
是 一 个 功能 完善 且 用 户 累 积 量 较 大 的 数字 社区 平台 。 
基于 此 ， 本 文 以 广西 中 烟 工 业 有 限 责任 公司 “ 微 信 社 
群 ”的 平台 数据 作为 数据 源 ， 该 数据 集 包 含 猜 成 语 、 
猜 歌 名 和 猜 码 图 等 14 个 活动 的 参与 情况 。 具 体 的 活动 
列表 以 及 各 表 的 数据 结构 如 表 2、 表 3 所 示 。 研 究 涉及 
该 营销 平台 2019 一 2022 年 的 用 户 数据 ， 共 计 259 268 
条 。 考 虑 到 部 分 用 户 数 据 缺 失 且 不 同 活动 的 用 户 所 获 
得 的 奖励 额度 和 奖励 物品 不 同 ， 为 减少 误差 ， 在 基于 
REM 模型 的 计算 时 需要 对 不 同 活动 的 R、F、W 值 
通过 最 大 最 小 归 一 化 方法 使 其 数据 标准 化 后 共 得 到 
38 192 条 数据 。 由 于 每 个 用 户 可 能 同时 参与 多 个 活动 
项 目 ， 因 此 本 文 测算 的 RR、F、WW 值 取 每 个 用 户 参 与 的 
所 有 活动 项 目的 RR、F、MM 所 对 应 的 平均 值 ， 最 终 得 到 
共计 19 362 条 数据 ， 数 据 格式 如 表 4 所 示 。 


“ 微 信 社 群 ”活动 列表 


Table 2 List of WeChat community activities 
活动 名 称 


猜 成 语 、 猜 歌 名 、 猜 码 图 、 猜 谜语 、 猜 诗词 、 飞 行 棋 大 作战 、 欢 乐 跳 一 跳 、 决 胜 21 点 、 秒 杀 、 趣 味 大 话 骨 、 天 天 斗 地 主 、 欣 后 语 、 


游戏 大 厅 、 众 筹 


表 3 数据 结构 
Table 3 Data structure 
数据 类 别 属性 编号 属性 名 称 属性 描述 
猜 成 语 、 猜 歌 名 、 猜 码 图 、 猜 迷 语 、 猜 0 UserID J ÉB ID 
wri]. Ua i 1 PicCount WRT, Ae CA. ASR. GB. Rei). BURIED 的 个 数 
2 OnePicGold FARE GKK. TSR. RB, Pei, BUR) 奖励 的 龙 币 数 
3 CreateTime 创建 时 间 
飞行 棋 大 作战 、 欢 乐 跳 一 跳 、 决胜 21 点、 0 UserID 户 的 ID 
趣味 大 话 般 、 天 天 斗 地 主 、 游 戏 大 厅 1 Gold 需要 消耗 的 龙 币 数 
2 CreateTime 创建 时 间 
秒杀 0 UserID 户 的 ID 
1 GiftNum 秒杀 的 商品 数量 
2 OneUseGold 秒杀 一 件 商品 所 需 的 龙 币 数 
3 CreateTime 创建 时 间 
众 筹 0 UserID 户 的 ID 
1 GiftNum 商品 数量 
2 TotalValue 选择 的 商品 单个 总 龙 币 数 
3 CreateTime 创建 时 间 
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#4 用 户 的 平均 R、F、MM 值 


Table 4 Average R, F, and M values of users 
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肖 雅 元 ， 赵 又 霖 ， 庞 航 远 | 


其 中 ，a 表示 一 个 样本 与 同类 中 所 有 其 他 点 之 间 的 


UserID 及 F M 
1 0.657 75 0.004 53 0.001 13 
2 0.272 15 0.241 80 0.028 92 
3 0.696 11 0.000 00 0.013 79 
4 0.441 25 0.055 96 0.144 98 
5 0.867 47 0.007 85 0.001 23 
6 0.425 19 0.003 33 0.001 89 


4.2 数字 社区 用 户 价值 类 别 标签 


4.2.1 最 佳 聚 类 类 别 数 

随 着 分 类 数量 上 的 增加 ， 误 差 平方 和 SSE 的 数值 
也 会 变 得 越 来 越 小 ， 但 并 非 分 类 数量 越 多 越 好 。 因 此 ， 
利用 “ 肘 部 法 则 ”选择 “拐点 处 的 天 值 ”确定 最 佳 聚 
类 类 别 数 上。 借助 Python 算法 不 断 迭 代 最 终 得 到 如 图 3 
所 示 的 “ 手 肘 图 "。 由 图 3 可 知 ， 聚 类 数 从 取 值 为 4 开 
台 ， 曲 线 趋 于 平缓 ， 表 明 最 佳 聚 类 数 的 取 值 可 能 为 
[4,8] 区 间 内 的 整数 值 。 
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图 3 用 户 聚 类 手 肘 图 
Fig.3 User clustering chart 
7 EAE Wi EERE AL hk, AS SCH FE AR 
数 来 确定 最 终 聚 类 数 。 轮 廓 系数 得 分 越 高 ， 表 示 具 有 
定义 的 聚 类 模型 越 好 外。 
轮廓 系数 的 计算 公式 为 : 


_ b-a 
A malat) (9) 


平均 距离 ; b 表示 样本 与 下 一 个 最 近 聚 类 中 所 有 其 他 点 
之 间 的 平均 距离 。 

H HY Python 算法 对 取 值 为 [4,9] 区 间 内 的 整数 进 
FERRER, RAFIR E k 取 值 下 的 轮廓 系数 曲 
线 图 如 图 4 所 示 ， 当 k=4 时， 轮廓 系数 最 接近 于 1， 此 
时 模型 效果 最 好 ， 因 此 ， 本 文 的 聚 类 最 佳 类 别 数 设 定 
为 4 类 。 


图 4 轮廓 系数 曲线 图 
Fig.4 Contour coefficient curve 
4.2.2 ”数字 社区 用 户 价值 类 别 划分 

EH Python 编程 将 属于 各 个 类 别 的 用 户 分 别 输出 ， 
并 计算 各 类 用 户 的 平均 值 以 及 总 的 平均 值 ， 得 到 如 表 5 
所 示 的 用 户 分 类 结果 ， 表 中 列 出 了 4 类 客户 的 客户 数 ， 
平均 最 近 参 与 时 间 、 参 与 频率 和 参与 金额 以 及 每 一 类 
客户 相对 于 总 平均 数 的 RR、F、M 变化 情况 。 

HA 等 外 提出 自 组 织 特征 映射 网 络 (Self-Organiz- 
ing Feature Map, SOM) 对 客户 RFM 指标 进行 分 类 ， 
按照 用 户 的 价值 划分 为 重要 和 一 般 价 值 客户 、 重 要 发 
展 和 保持 客户 、 一 般 发 展 和 保持 客户 、 重 要 和 一 般 挽 
留 客户 共 8 种 价值 类 型 。 本 文 参考 HA 的 用 户 分 类 ， 
结合 上 述 聚 类 结果 特征 ， 得 到 如 下 聚 类 类 别 ， 每 一 个 
类 别 的 用 户 都 可 以 被 看 作 是 该 公司 的 市 场 阶段 。 

(1) 重要 价值 用 户 (类 别 1): 类 别 1 的 用 户 参 与 
活动 的 频 度 (F) 和 参与 活动 的 值 度 (M) 较 总 体 平均 
值 大 ， 参 与 活动 的 近 度 (R) 较 总 体 平 均值 较 小 。 说 明 
类 别 1 参与 活动 的 次 数 较 多 ， 在 活动 中 的 消费 额度 较 
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表 5 用 户 价值 类 别 


Table 5 User value category 


类 别 号 户 数 /个 R F M 类 型 
1 6 222 0.112 62 0.039 69 0.021 54 RIFtMt 
2 3 131 0.873 35 0.002 91 0.006 77 RIFIM} 
3 4171 0.610 30 0.006 40 0.011 93 RtFiMt 
4 5 838 0.352 86 0.014 45 0.014 52 RVF\M\ 
总 平均 19 362 0.415 29 0.018 96 0.014 97 


* 注 : R, FAM PENI ọ, ETPA] 
大 ， 且 近期 参与 社区 内 的 活动 ， 总 体 来 看 较为 活跃， 


A 


类 用 户 的 偏好 ， 根 据 偏好 进行 推送 ;针对 低 价 值 高 积 
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对 社区 的 贡献 和 价值 较 大 ， 故 将 其 定义 为 重要 价值 用 
户 。 由 重要 价值 用 户 偏好 统计 表 可 知 ( 表 6)， 猜 码 图 、 
猜 成 语 以 及 游戏 大 厅 等 活动 项 目的 用 户 价值 和 用 户 积 
极 性 均 处 于 较 高 水 平 ， 属 于 重要 价值 用 户 的 高 价值 高 
积极 性 的 活动 ; 趣味 大 话 骨 和 飞行 棋 大 作战 的 用 户 价 
值 较 高 、 用 户 积极 性 较 低 ， 属 于 高 价值 低 积极 性 的 活 
动 ; 猜 歌 名 的 用 户 积极 性 较 高 ， 但 用 户 价值 处 于 较 低 
的 水 平 ， 属 于 低 价值 高 积极 性 的 活动 。 针 对 重要 价值 
用 户 社区 理应 采取 留存 和 维持 为 主 的 运营 策略 ， 提 高 
用 户 满意 度 ， 延 长 用 户 生命 周期 。 针 对 高 价值 高 积极 


极 性 的 活动 ， 社 区 应 当 挖掘 高 热度 活动 的 优点 ， 并 将 
其 运用 于 其 他 活动 中 ， 提 高 用 户 的 消费 意愿 。 

(2) 低 价值 用 户 (类 别 2): 类 别 2 的 用 户 参 与 活 
动 的 频 度 (F) 和 参与 活动 的 值 度 (M) 较 总 体 平均 值 
小 ， 参 与 活动 的 近 度 (R) 较 总 体 平均 值 大 。 说 明 类 别 
2 的 用 户 参与 活动 的 次 数 较 少 ， 在 活动 中 的 消费 额度 较 
小 ， 且 最 近 一 次 参与 社区 内 的 活动 时 间距 今 久 还， 总 
体 来 看 用 户 的 积极 性 不 高 ， 且 对 社区 的 贡献 和 价值 较 
小 ， 故 将 其 定义 为 低 价 值 用 户 。 由 低 价值 用 户 偏好 统 
计 表 可 知 ( 表 7)， 低 价值 用 户 在 猜 码 图 活动 中 的 用 户 


chinaXiv 


性 的 活动 ， 社 区 应 当 认真 建设 和 完善 热度 较 高 的 项 目 ; 
针对 高 价值 低 积极 性 的 活动 ， 企 业 需 要 控 气 和 预测 该 


价值 和 积极 性 均 处 于 最 高 水 平 ， 属 于 高 价值 高 积极 性 
的 活动 ; 众 筹 、 趣 味 大 话 角 以 及 飞行 棋 大 作战 等 活动 


表 6 重要 价值 用 户 偏好 统计 


Table 6 Important value user preference statistics 


项 得 分 均值 参与 用 户 数 /个 重要 价值 用 户 的 用 户 画 像 
UA TE 0.118 97 11 
猜 码 图 0.102 77 708 
飞行 棋 大 作战 0.088 40 28 . 
欢乐 跳 一 跳 0.083 76 162 H 欢乐 跳 一 跳 猜谜 语 
猜 成 语 0.057 92 2 109 才 > 
众 筹 0.044 43 146 BAI 
游戏 大 厅 0.040 35 576 
秒杀 0.037 42 1 025 <P XK 大 猜 诗词 
JEE 0.025 80 145 青 码 图 Eg HA 
决胜 21 点 0.021 22 28 众 筹 歇后语 小 
猜 诗词 0.020 73 72 行 楼 大 作战 
猜 歌 名 0.017 18 1 003 ws AR 同人 KZ 
Hae 0.015 72 52 
天 天 斗 地 主 0.011 48 157 
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表 7 低 价值 用 户 偏好 统计 


Table 7 Low value user preference statistics 


项 得 分 均值 参与 用 户 数 /个 低 价值 用 户 的 用 户 画 像 
猜 码 网 0.641 67 1 138 
众 筹 0.187 21 79 
趣味 大 话 货 0.184 13 16 决胜 21 点 BRAAM 
飞行 棋 大 作战 0.164 66 8 = 大 au 地 c3 
秒杀 0.140 76 92 RE 
vere 秒杀 ae Ais 
游戏 大 厅 0.138 67 119 Ce. Ad 
i 点 0.118 89 22 青 Lye. 猜谜 语 
猜谜 语 0.107 61 113 跳 游 戏 大 厅 
欢乐 跳 一 跳 0.103 96 87 
猜 成 语 0.103 65 319 549 g 
HJE 0.093 23 78 
猜 歌 名 0.091 96 582 
猜 诗 词 0.090 54 102 
天 天 斗 地 主 0.046 92 376 
的 用 户 价值 较 高 ， 但 用 户 的 积极 性 较 低 ， 属 于 高 价值 。 于 高 价值 低 积 极 性 的 活动 ， 猜 歌 名 和 猜 成 语 等 活动 的 
低 积极 性 的 活动 ; 猜 歌 和 名、 天 天 斗 地 主 以 及 猜 成 语 等 ” 用 户 积极 性 较 高 ， 但 用 户 的 价值 较 低 ， 属 于 低 价值 高 
活动 的 用 户 积极 性 较 高 ， 但 用 户 的 价值 较 低 ， 属 于 低 。 积极 性 的 活动 。 因 此 ， 针 对 重要 挽留 用 户 的 高 价值 高 
价值 高 积极 性 的 活动 。 针 对 低 价 值 用 户 ， 社 区 采取 积极 性 活动 ， 如 猜 码 图 、 众 筹 等 ,社区 需要 提高 推送 


“优先 级 最 低 ” 的 运营 策略 。 社 区 可 以 通过 对 高 积极 性 
活动 采取 “精准 优化 ， 积 极 投 送 ”的 原则 ， 减 少 低 价 
值 用 户 的 流失 。 

(3) 重要 挽留 用 户 〈 类 别 3): 类 别 3 的 用 户 参与 
活动 的 频 度 CF) 较 总 体 平 均值 小 ， 参 与 活动 的 值 度 
ee 
类 别 3 的 用 户 参 与 活动 的 次 数 较 少 ， 一 次 参与 社 
senna a 
故 将 其 定义 为 重要 挽留 用 户 。 重 要 挽留 用 户 的 主动 性 


频率 ， 注 重活 动 的 设计 ， 提 高 重要 挽留 用 户 的 用 户 粘 
性 ; 针对 高 价值 低 积极 性 的 活动 ， 社 区 可 以 重点 挖 气 
该 类 用 户 的 偏好 ， 提 出 针对 性 的 营销 策略 ， 同 时 通过 
问卷 等 的 调查 方式 追踪 调查 ， 探 索 导 臻 重要 挽留 用 户 
积极 性 低 的 原因 ， 提 升 活动 的 吸引 力 ; 针对 低 价 值 高 
积极 性 的 活动 ， 社 区 可 以 适当 进行 推送 以 维持 重要 挽 
留用 户 的 活性 。 


(4) 回流 用 户 (类 别 4): 类 别 4 用 户 消费 次 数 


较 弱 ， 但 是 其 对 社区 的 价值 贡献 较 大 ， 后 期 社区 需要 
重视 该 类 型 用 户 的 偶 好 挖掘 ， 提 高 用 户 的 积极 性 ， 将 
其 转化 成 为 重要 价值 用 户 ， 采 取 “ 提 高 用 户 粘 性 ， 促 
进 用 户 转化 ”为 主 的 运营 策略 。 由 重要 挽留 用 户 偏 好 
统计 表 可 知 ( 表 8)， 重 要 挽留 用 户 在 猜 码 图 活动 中 的 
用 户 价值 和 积极 性 均 处 于 最 高 水 平 ， 属 于 高 价值 高 积 
极 性 的 活动 ; 趣味 大 话 仍 、 飞 行 棋 大 作战 以 及 决胜 21 
点 等 活动 的 用 户 价值 较 高 ， 但 用 户 的 积极 性 较 低 ， 属 


(F) 和 消费 金额 (M) 高 ， 最 近 消 费时 间 (R) 低 ， 是 
公司 的 高 价 什 用户。 类别 4 的 用 户 参 与 活动 的 频 度 


(F) 和 参与 活动 的 值 度 (M) 较 总 体 平 均值 小 ， 参 与 
活动 的 近 度 (R) 较 总 体 平 均值 小 。 说 明 类 别 4 的 用 户 
参与 活动 的 次 数 较 少 ， 在 活动 中 的 消费 额度 较 小 ， 但 
近期 参与 社区 内 的 活动 ， 总 体 来 看 该 类 型 用 户 在 近 段 
时 间 有 回流 的 趋势 ， 故 将 其 定义 为 回流 用 户 。 回 流 用 
户 的 主动 性 较 弱 ， 需 要 社区 加 强 引导 和 挖掘 偏好 ， 采 
取 “ 召 回 为 主 ” 的 运营 策略 。 由 回流 用 户 偏好 统计 表 
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表 8 重要 挽留 用 户 偏好 统计 


Table 8 Key retention user preference statistics 


项 得 分 均值 参与 用 户 数 / 个 重要 挽留 用 户 用 户 画 像 
猜 码 图 0.449 30 1 182 
EUR ATA 0.164 19 3 
众 筹 0.144 92 228 多 全 N ‘A m 
飞行 棋 大 作战 0.132 81 3 i BA K. TA Hi 
决胜 21 点 0.107 56 8 g 
秒杀 0.103 35 253 青 码 | SL 
游戏 大 厅 0.093 06 161 ~ 
欢乐 跳 一 跳 0.081 37 13 Fas 多 后 语 
猜 成 语 0.077 27 824 2 
猜谜 语 0.075 99 135 5 HA- p 
Sail 0.068 45 89 ”游戏 大 厅 秒杀 AS 
猜 诗词 0.064 88 132 
猜 歌 名 0.063 85 1 104 
天 天 斗 地 主 0.036 66 36 


可 知 ( 表 9)， 回 流 用 户 在 猜 码 图 活动 中 的 用 户 价值 和 ”的 活动 。 因 此 ， 针 对 高 价值 高 积极 性 的 活动 ， 社 区 需 
积极 性 均 处 于 较 高 水 平 ， 属 于 高 价值 高 积极 性 的 活动 ， ”要 提高 推送 频率 ， 并 分 析 高 价值 高 积极 性 活动 相 较 于 
众 筹 、 趣 味 大 话 骨 、 飞 行 棋 大 作战 以 及 决胜 21 点 等 活 。 其 他 活动 的 优点 ， 持 续 开 发 和 建设 类 似 的 活动 ， 促 进 
动 的 用 户 价值 较 高 ， 但 用 户 的 积极 性 较 低 ， 属 于 高 价 。 回流 用 户 转 化 为 重要 价值 用 户 ; 针对 高 价值 低 积极 性 


值 低 积 极 性 的 活动 ; 


猜 歌 名 和 猜 成 语 等 活动 的 用 户 积 
极 性 较 高 ， 但 用 户 的 价值 较 低 ， 属 于 低 价 值 高 积极 性 


的 活动 ， 社 区 可 以 提高 向 用 户 推送 的 频率 ， 通 过 设置 
礼品 、 积 分 等 奖励 提高 用 户 积 极 性 ， 同 时 通过 问卷 等 


表 9 回流 用 户 偏好 统计 


Table 9 Returned user preference statistics 


项 得 分 均值 参与 用 户 数 /个 回流 用 户 的 用 户 画 像 
猜 码 图 0.259 10 1 204 
众 筹 0.082 96 172 
飞行 棋 大 作战 0.081 93 19 
趣味 大 话 人 0.076 53 5 游戏 KT Të RF 5i 
秒杀 0.074 97 126 = RA “h E 
决胜 21 点 0.070 86 17 
游戏 大 厅 0.066 69 220 J B 4 J Ae 
ii 0.061 18 2 009 Wg Æ Ea 了 
欢乐 跳 一 跳 0.060 43 63 39 月 = N He 
猜谜 语 0.051 82 163 = ol. / = 
猜 诗词 0.046 42 146 = 同人 到 
UATE 0.041 91 89 ai 
猜 歌 名 0.035 55 1 469 
天 天 斗 地 主 0.022 52 136 
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的 调查 方式 追踪 调查 ， 探 索 其 用 户 回流 的 潜在 背后 原 
因 ; 针对 低 价值 高 积极 性 的 活动 ， 社 区 可 以 重点 挖掘 
该 类 用 户 的 偏好 ， 提 出 针对 性 的 营销 策略 ， 提 高 回流 
用 户 留 存 社 区 的 意愿 。 


4.3 用 户 -评分 矩阵 


FH RY F M 在 对 用 户 价值 偏好 的 影响 程度 判别 
上 没有 固定 标准 ， 因 此 在 测算 每 个 活动 项 目 参与 用 户 
IR. F MEE, PAREEN 3 个 指标 权重 
值 ， 并 通过 加 权 计 算得 到 用 户 的 REM 得 分 ， 用 以 评估 
和 计量 数字 社区 用 户 的 CLV。 各 个 活动 项 目的 3 个 指 
标 权 重 如 表 10 所 示 。 


表 10 活动 项 目 指标 权重 列表 
Table 10 Activity indicators' weights 


活动 名 称 R F M 
猿 码 图 0.743 84 0.126 58 0.129 59 
猜 成 语 0.121 17 0.421 10 0.457 73 
猜 歌 名 0.105 81 0.424 07 0.470 12 
猜谜 语 0.122 27 0.416 72 0.461 01 
猜 诗 词 0.103 23 0.426 86 0.469 91 
歇后语 0.105 56 0.440 45 0.453 99 

飞行 棋 大 作战 0.123 19 0.483 97 0.392 84 
欢乐 跳 一 跳 0.109 12 0.409 11 0.481 77 
决胜 21 点 0.121 14 0.401 56 0.477 30 
趣味 大 话 般 0.217 84 0.385 40 0.396 76 
天 天 斗 地 主 0.048 81 0.411 53 0.539 66 

秒杀 0.146 49 0.571 93 0.281 58 
众 筹 0.185 88 0.661 45 0.152 67 
游戏 大 厅 0.157 09 0.292 19 0.550 72 


考虑 到 “ 微 信 社 群 ”的 运营 数据 缺乏 用 户 评分 数 
据 ， 且 加 权 的 REM 值 能 够 在 用 户 价值 和 用 户 时 序 性 方 
面 真 实体 现 用 户 偏好 。 因 此 ， 本 文 基于 上 述 的 权重 指标 ， 
根据 公式 (6) 计算 不 同 用 户 参 与 不 同 项 目 活动 的 R、 下 、 
人 的 加 权 平 均值 ， 作 为 用 户 对 某 个 项 目 活动 的 综合 评分 ， 
没有 评分 记录 记 为 Null， 得 到 用 户 - 评 分 矩阵 。 


4.4 数字 社区 用 户 偏好 画像 


根据 用 户 之 间 的 兴趣 相似 度 ， 通 过 基于 用 户 的 协 
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同 过 滤 算 法 ， 利 用 用 户 当 前 的 项 目 活动 参与 情况 生成 
用 户 -预测 评分 和 矩阵， 根据 预测 评分 预测 和 挖掘 用 户 偏 
好 。 用 户 - 预 测评 分 矩阵 如 表 11 所 示 。 


表 11 用 户 -预测 评分 矩阵 


Table 11 User-prediction scoring matrix 


UserID 预测 偏好 项 预测 分 数 
16254 飞行 棋 大 作战 0.123 134 
16254 猜 码 图 0.112 041 
16254 猜 成 语 0.069 185 
16254 歇后语 0.065 411 
16254 猜谜 语 0.060 205 
16254 猜 诗 词 0.055 367 
16254 猜 歌 名 0.040 119 
16254 决胜 21 点 0.040 022 


将 预测 分 数 按照 降序 排序 ， 预 测 分 数 前 6 的 活动 
作为 用 户 的 预测 偏好 。 基 于 CLV-PM 模型 从 用 户 价值 
类 别 ， 历 史 偏 好 以 及 预测 偏好 构建 数字 社区 的 用 户 偏 
好 画像 ， 用 户 编号 为 16254 的 数字 社区 用 户 偏好 画像 
如 图 5 所 示 。 用 户 16254 为 重要 价值 用 户 ， 该 用 户 参 
与 活动 的 次 数 较 多 ， 在 活动 中 的 消费 额度 较 大 ， 且 近 
期 参与 社区 内 的 活动 ， 总 体 来 看 较为 活跃 ， 对 社区 的 
贡献 和 价值 较 大 。 针 对 该 用 户 要 采取 “留存 和 维持 ” 
为 主 的 运营 策略 。 该 用 户 的 历史 偏好 为 欢乐 跳 一 跳 、 
秒杀 以 及 趣味 大 话 骨 等 ， 在 后 期 可 为 该 用 户 推 送 飞 行 
棋 大 作战 、 猜 码 图 、 猜 成 语 以 及 歇后语 等 活动 。 


BX 重要 价值 用 户 (RLFTM1) 


历史 偏好 
趣味 大 话 般 游戏 大 厅 
秒杀 天 天 斗 地 主 众 筹 


欢乐 跳 一 跳 


LIN Aw 
猜 成 语 
区 后 语 


飞行 棋 大 作战 
猜 码 图 


猜谜 语 
猜 诗 词 


图 5 用 户 16254 的 用 户 偏好 画像 
Fig.5 User preference profile of user 16254 
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4.5 讨论 与 分 析 


基于 CLV-PM 模型 对 广西 中 烟 工 业 有 限 责任 公司 
“ 微 信 社 群 ”管理 平台 用 户 行为 信息 开展 用 户 偏好 挖掘 
研究 ， 可 以 归纳 总 结 为 以 下 结论 。 

(1) CLV-PM 模型 将 “ 微 信 社 群 ”的 用 户 划分 为 
重要 价值 用 户 、 低 价值 用 户 、 重 要 挽留 用 户 和 回流 用 
P 4 个 类 别 。 针 对 重要 价值 用 户 ， 数 字 社区 采取 “ 维 
持 和 留存 ”为 主 的 运营 策略 ; 针对 低 价 值 用 户 ， 数 字 
社区 采取 “优先 级 最 低 ” 为 主 的 运营 策略 ， 针 对 重要 

留用 户 ， 数 字 社 区 采取 “提高 用 户 粘 性 ， 促 进 用 户 
转化 ”为 主 的 运营 策略 ;针对 回流 用 户 ， 数 字 社区 采 
取 “ 召 回 为 主 ” 的 运营 策略 。 

(2) 针对 目标 用 户 绘制 用 户 偏好 画像 ， 用 户 16254 
属于 重要 价值 用 户 ， 针 对 该 用 户 采 取 “ 留 存 和 维持 ” 
为 主 的 运营 策略 ， 该 用 户 的 历史 偏好 为 欢乐 跳 一 跳 、 
秒杀 等 活动 ， 预 测 偏 好 为 飞行 棋 大 作战 、 猜 码 图 等 活 
动 ， 为 数字 社区 目标 用 户 的 运营 和 维护 提供 依据 。 


随 着 数字 时 代 的 迅猛 发 展 ， 数 字 社 区 被 广泛 应 用 
于 用 户 管理 。 针 对 数字 社区 用 户 评分 数据 失真 以 及 稀 
玻 性 的 问题 以 及 数字 社区 用 户 价值 以 及 时 序 性 的 特点 ， 
本 文 提出 基于 用 户 CLYV 的 数字 社区 用 户 偏 好 挖掘 模型 
CLV-PM 模型 ， 该 模型 以 用 户 行为 信息 作为 研究 对 象 ， 
基于 REM 模型 通过 K-means++ 聚 类 生成 用 户 价值 类 别 
标签 ， 将 用 户 的 客户 生命 周期 价值 作为 用 户 偏好 度 的 
衡量 指标 ， 并 借助 协同 过 滤 算 法 挖掘 和 预测 用 户 偏 好 ， 
最 后 ， 绘 制 数 字 社 区 用 户 的 用 户 偏好 画像 。 

(1) 在 “信息 过 载 ” 的 时 代 ，CLV-PM 模型 对 数 
字 社 区 用 户 的 用 户 偏好 挖掘 和 预测 具有 重要 的 实践 意 
义 。 


(2) CLV-PM 模型 以 RFM 模型 中 的 RR、 F, MH 
标 作为 聚 类 依据 ， 在 考虑 数字 社区 用 户 的 时 序 性 、 差 
异性 以 及 用 户 价 值 的 同时 ， 通 过 Kmeans++ 对 用 户 进 
行 价值 类 别 分 析 。 在 提高 目标 用 户 挖掘 效率 的 同时 使 


2023 年 第 35 卷 第 2 期 


ChinaXiv 合 作 期 刊 


得 数字 社区 用 户 价值 划分 更 加 明确 ,减少 数字 社区 的 
营销 成 本 ， 提 高 数字 社区 的 运营 绩效 ， 推 动 数字 赋 能 
社区 。 

(3) CLV-PM 模型 以 用 户 行为 数据 作为 数据 源 ， 
以 RFM 的 加 权 平 均值 评估 和 计量 用 户 的 CLV 并 将 其 
作为 用 户 对 项 目的 偏好 值 ， 基 于 偏好 值 挖掘 目标 用 户 
的 预测 偏好 ， 实 现 数字 社区 用 户 偏好 挖掘 研究 。 该 方 
法 在 充分 考虑 了 用 户 价值 的 情况 下 有 效 减 少 用 户 评分 
的 失真 问题 、 提 高 模型 对 用 户 偏好 的 认 知 ， 数 字 社 区 
运营 成 本 得 以 降低 。 

(4) 本 文 基于 用 户 CLV 构建 数字 社区 用 户 偏好 挖 
掘 模型 CLV-PM， 为 未 来 客户 生命 周期 价值 融入 数字 
社区 用 户 偏好 挖掘 研究 提供 新 的 视角 ， 同 时 也 为 用 户 
CLV 的 研究 提供 新 的 思路 。 
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User Preference Mining in Digital Community Based on CLV Preference 
Mining Model 


XIAO Yun', XU Huanhuan', XIAO Yayuan', ZHAO Youlin””, PANG Hangyuan? 
(1. Guangxi China Tobacco Industry Co., Ltd., Nanning 530001; 2. School of Information Management, Nanjing University, Nanjing 


210023; 3. Business School of Hohai University, Nanjing 211100) 


Abstract: [Purpose/Significance] Digital communities have become a way for enterprises to manage users efficiently. The existing 


research on digital community rarely considers the importance of user behavior information and user's customer life cycle value to the 


mining of user preferences in digital community. This research aims to give full play to the digital community's characteristics such as 


intuitive, convenient, interesting, and interactive properties so that the research results can benefit every user in their use of the digital 


community and every enterprise in their user management. [Method/Process] Aiming at the user groups in digital community, this paper 


proposes a preference mining model ClV-Preference mining (CLV-PM) based on Customer Lifetime Value (CLV). First, in order to 
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reflect the real preferences ofusers, the three indicators of the RFM model are used to quantify user behavior information, and the group 
characteristics of users are mined through K-mean ++ algorithm to generate user value category labels. Second, in order to consider the 
timeliness and difference of users and enhance the model's cognition of preferences, this paper uses the entropy weight method to solve 
the indicator weights of each activity, obtains user CLV to construct user-project scoring matrix, and uses the collaborative filtering 
algorithm to predict user preferences. Finally, based on the user value category, user historical preference and user forecast preference, 
the user preference profile of target users in digital community is generated, and feasible suggestions are put forward for the operation 
and maintenance of target users according to the user preference profile. [Results/Conclusions] The user dataset of the "Wechat 
community" management platform can be divided into four user value categories: important value users, low value users, returned users 
and important retention users. Target users 16254 are important value users, and the operation strategy of "retention and maintenance" is 
adopted. The historical preferences are happy hop, sec-kill and other activities; the prediction preference is flying chess battle, guessing 
code map and other activities; the target user preference sketch provides the basis for the operation and maintenance of users in the 
digital community. In terms of data source, the CLV-PM model proposed in this paper directly reflects user preferences based on user 
behavior information and reduces the problem of score distortion. To provide a new perspective for the research of user behavior in 
digital community, the construction of user-project scoring matrix based on user CLV fully considers the user value of digital community 
and provides a new direction for the extension and application of CLV. However, due to limited research space, this paper did not 
conduct model evaluation research on the proposed model, which can be further discussed in subsequent studies. 


Keywords: CLV-PM; collaborative filtering; digital community; user preference; information behavior 
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